# <u>Introdução à Arquitetura de Computadores</u>



# μArquitetura MIPS Multicycle: I

#### Performance Single-cycle

Caminho Crítico de Execução:

Período Mínimo de Clock

Tempo de Execução

#### μArquitetura *Multicycle* (MC)

Limitações do *Single-cycle Multicycle* versus *Single-cycle* 

Von Neumann: Memória única

Reutilização da ALU

#### Datapath Multicycle

Elementos de Estado Execução de instruções:

Acesso à Memória: lw e sw tipo-R (add) e branch (beg)

A. Nunes da Cruz / DETI - UA

Junho / 2021

# Performance SC (1) - Caminho Crítico e $T_{C.Min}$ (1) - 1w

- Num processador *Single-cycle* todas as instruções executam num único ciclo de *clock*.
- O período mínimo do clock (T<sub>C,Min</sub>) é limitado pelo caminho crítico de execução da instrução 1w (ilustrado no diagrama abaixo com a linha azul tracejada).



 $T_{C.Min}$  limitado pelo caminho crítico (lw)

© A. Nunes da Cruz

IAC - MIPS - Multicycle: Datapath

# Performance SC (2) - Cam. Crítico: $T_{C1}$ (2) - Fetch+Decode

- 1. No flanco ascendente do clock, PC carrega um novo endereço.
- 2. A instrução é lida da Memória de Instruções.
- O operando SrcA é lido do Banco de Registos e em paralelo o valor imediato é estendido em sinal e selecionado, pelo multiplexer ALUSrc, como SrcB da ALU.



T<sub>CI</sub>: CLK to InstrMem to RegisterFile to ALU

© A. Nunes da Cruz

IAC - MIPS - Multicycle: Datapath

2/26

# Performance SC (3) - Cam. Crítico: $T_{C2}$ (3) - Exec+Data+Wb

- 4. A ALU soma SrcA com SrcB e calcula o endereço (ALUResult).
- 5. Deste endereço é lido *ReadData* da Memória de Dados.
- 6. O multiplexer MemToReg seleciona ReadData.
- 7. O *Result* apresenta-se à entrada do RF, respeitando o tempo de *setup*, para ser escrito no próx. flanco ascendente do *clock*.



© A. Nunes da Cruz

IAC - MIPS - Multicycle: Datapath





#### Performance SC (6) - Tempo de Execução (1) - Definição

#### Tempo de Execução de um Programa

Tempo de Execução = #Instruções x (Ciclos/Instrução) x

(Segundos/Ciclo)

= #Instruções x CPI x T<sub>C</sub>

$$T_{\text{EXEC}} = \frac{\text{Segundos}}{\text{Programa}} = \frac{\#\text{Instruções}}{\text{Programa}} \times \frac{\text{Ciclos}}{\text{Instrução}} \times \frac{\text{Segundos}}{\text{Ciclo}}$$

• #Intruções/Programa: Número de Instruções para completar a tarefa

• Ciclos/Intrução: CPI: Ciclos/Instrução (=1 no Single-cycle!)

Segundos/Ciclo: T<sub>c.</sub> Período de Clock (1/Frequência)

Segundos/Programa: T<sub>EXEC</sub>: Tempo de espera para executar a tarefa

© A. Nunes da Cruz IAC - MIPS - Multicycle: Datapath 6/2

# Performance SC (6) - Tempo de Execução (2) - Exemplo

| Elemento            | Parâmetro            | Atraso (ps) |
|---------------------|----------------------|-------------|
| Register clock-to-Q | t <sub>pcq_PC</sub>  | 30          |
| Register setup      | t <sub>setup</sub>   | 20          |
| Multiplexer         | t <sub>mux</sub>     | 25          |
| ALU                 | t <sub>ALU</sub>     | 200         |
| Memory read         | t <sub>mem</sub>     | 250         |
| Register file read  | t <sub>RFread</sub>  | 150         |
| Register file setup | t <sub>RFsetup</sub> | 20          |

$$T_{c,Min}$$
 =  $t_{pcq\_PC}$  +  $2t_{mem}$  +  $t_{RFread}$  +  $t_{ALU}$  +  $t_{mux}$  +  $t_{RFsetup}$   
= [ 30 + 2(250) + 150 + 200 + 25 + 20 ] ps  
= 925 ps ( $F_{c,Max}$  = 1.08 GHz)

Em geral, estes atrasos são dependentes da tecnologia usada (e.g., CMOS, BiCMOS) para implementar a lógica.

© A. Nunes da Cruz IAC - MIPS - Multicycle: Datapath 7/26

4

# Performance SC (7) - Tempo de Execução (3) - Exemplo

Qual o tempo de execução dum programa com 100 mil milhões de instruções, num CPU *Single-cycle*?

Tempo de Execução = #Instruções x CPI x 
$$T_C$$
  
=  $0.1 \times 10^{12}$  x (1) x 925 ×  $10^{-12}$  s  
= 92.5 segundos

CPI = 1 $T_c = 925 \text{ ps}$ 

© A. Nunes da Cruz

IAC - MIPS - Multicycle: Datapath

8/26

# Multicycle MIPS (1) - Limitações Single-cycle

# Basicamente, três pontos fracos:

- 1. Requere um período de *clock* suficientemente longo, para acomodar a instrução com o maior tempo de execução (lw), não obstante a maioria das instruções ter um tempo de execução mais curto.
- 2. Usa dois somadores e uma ALU.
- 3. Usa memórias separadas para instruções e dados (i.e., a arquitetura de processador é do tipo *Harvard*).

Hoje em dia, a maioria dos computadores usa uma memória única para instruções e dados (i.e., arquitetura *Von Neumann*).

© A. Nunes da Cruz

IAC - MIPS - Multicycle: Datapath





#### Multicycle MIPS (4) - μArquitecturas SC vs MC

- Single-cycle
  - + simples
  - tempo de ciclo limitado pela instrução mais longa (lw)
  - usa uma ALU, dois somadores e duas memórias

#### Multicycle

- + frequência de *clock* mais elevada
- + as instruções mais simples executam mais rápido
- + reutilização de *hardware* (caro) em ciclos distintos: usa uma única Memória e uma única ALU
- Unidade de Controlo mais complexa: máquina de estados (FSM)
- Fases de design iguais: datapath + control

© A. Nunes da Cruz

IAC - MIPS - Multicycle: Datapath

12/26

# MC Datapath (1) - Elementos de Estado - Uma só Memória

Substituição das duas memórias de Instruções e Dados por uma única\*

- Não era possível na implementação Single-cycle (As instruções e os dados são necessários durante o mesmo ciclo de clock).
- Agora, a mesma memória pode ser (re)usada se necessário (O fetch da Instrução e o acesso aos Dados são feitos em ciclos de clock distintos).



\*A arquitetura de Von Neumann substitui a arquitetura de Harvard.

© A. Nunes da Cruz

IAC - MIPS - Multicycle: Datapath

#### MC Datapath (2) - 1w Fetch - Registo Instr

# Passo 1: Leitura da Instrução (Fetch)



1. Usa-se um novo registo de Instrução\* para reter a instrução, por forma a poder ser usada nos ciclos seguintes.

\*Instr - É um registo <u>não acessível</u> ao programador, designado por '<u>non-architectural</u>' (contráriamente ao que acontece com os registos do RF e mesmo com o PC). Este tipo de registos são colocados nas saídas dos elementos funcionais para possibilitar o acesso aos valores (endereços/dados) do respectivo elemento nos ciclos seguintes.

© A. Nunes da Cruz

IAC - MIPS - Multicycle: Datapath

14/26

# MC Datapath (3) - 1w Leitura do Operando - Registo A

# Passo 2: Leitura do operando do Register File (RF)



2. Insere-se mais um registo adicional (A), para reter o valor de rs (vai ser necessário no ciclo seguinte).

© A. Nunes da Cruz

IAC - MIPS - Multicycle: Datapath

# 



# MC Datapath (6) - 1w Ler Valor da Memória - Reg. Data

#### Passo 5: Leitura do valor da Memória



- 5. Insere-se um multiplexer em frente da entrada de endereço da memória (A), para selecionar o PC ou ALUOut.
  - > O Fetch (I) ou Acesso a Dados (D) é controlado pelo novo sinal (IorD).
  - > O valor lido (RD) é colocado noutro registo (Data).

Normalmente, a memória está segmentada: zona de instruções e zona de dados, etc.

© A. Nunes da Cruz

IAC - MIPS - Multicycle: Datapath

# MC Datapath (7) - 1w Escrever valor no RF

# Passo 6: Escrita no Banco de Registos



6. O valor lido da memória (Data) é escrito (RegWrite=1) no registo rt (Instr<sub>20:16</sub>) do Banco de Registos.



# Passo 7: Calculo do PC' Passo 7: Calculo do PC' PCWine TO THE TOTAL THE



### MC Datapath (10) - tipo-R

Usa os registos rs e rt como operandos



- 1. Executa a operação aritmética/lógica (resultado em ALUOut)
- 2. Escreve o resultado no registo rd (RF), RegDst=1.
  - > O multiplexer MemToReg está, agora, em frente de WD3 do RF.

© A. Nunes da Cruz IAC - MIPS - Multicycle: Datapath 22/26

#### MC Datapath (11) - branch

beq rs,rt,imm

1. Calcula o endereço-alvo: BTA = (SignImm<sub>32</sub> << 2) + (PC+4)



- Compara o valor dos registos rs e rt (Zero=1 se igual) e faz PCSrc=1 (A comparação reutiliza a ALU num ciclo posterior; não está visível no diagrama).
  - > O PC tanto pode ser atualizado (PCEn) por PCWrite ou por Branch.
  - > O novo multiplexer PCSrc escolhe o valor de PC'.

As duas operações (BTA e comparação de rs e rt ) são feitas em ciclos diferentes! Ver FSM (beq).

© A. Nunes da Cruz

IAC - MIPS - Multicycle: Datapath





